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摘 要 : 分 词 是 自然 语言 处 理 的 一 项 基础 性 工作 ， 对 自然 语言 处 理 的 后 继 工作 有 较 大 的 影响 。 紧 缩 格 的 识别 是 藏 文 分 
词 中 最 难 最 重要 的 技术 之 一 。 通 过 剖析 已 有 藏 文 紧缩 词 识别 方 法 ， 分 析 藏 文字 词 的 特征 ， 针 对 性 地 提出 了 识别 藏 文 紧 
缩 格 的 规则 算法 、 添 加 一 还 原 算 法 和 最 大 粒 模 型 的 特征 模板 ， 从 而 得 到 基于 规则 、 添 加 还 原 法 与 最 大 粒 模 型 相 结合 的 
藏 文 紧 缩 格 识别 方法 。 实 验 数据 表明 ， 该 方法 识别 藏 文 紧缩 格 的 准确 率 、 召 回 率 和 Fl 值 分 别 达 99.26%、96.47%、 
97.85%， 比 现 有 最 高 的 准确 这 有 了 较 明 显 的 提高 。 
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Recognition method of Tibetan abbreviated case-auxiliary Words 
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Abstract: Word segmentation is a basic work of natural language processing, which has a great influence on the subsequent 
work of it, the recognition of abbreviated case-auxiliary words is one of the most difficult and important technologies of Tibetan 
word segmentation. Through dissecting the existing recognition methods of abbreviated case-auxiliary words, this paper 
analyzed the characteristics of Tibetan words, targetedly proposed recognition algorithm of Tibetan abbreviated case-auxiliary 
words rules, add - restore algorithm and the maximum entropy models feature template, then the methods of recognizing 
abbreviated case-auxiliary words based on the rules, add-restore methods and the maximum entropy model were obtained. The 
experimental data showed that the accuracy, recall rate and F value of the method is 99.26%, 96.47%, and 97.85% respectively ， 


which shows a obvious progress than that of the existing methods. 
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情况 比较 复杂 ， 目 前 的 识别 方法 还 有 待 改 进 。 本 文 在 现 有 紧缩 
词 识别 方法 的 基础 上 ， 提 出 了 一 种 规则 、 还 原 法 和 最 大 炉 相 结 
藏 文 是 一 种 典型 的 逻辑 格 语法 体系 的 复杂 拼音 文字 叫 ， 合 的 la 格 助词 “二 ”和 具 格 助词 “ 气 ”(〈 下 文 称 此 为 紧缩 格 ) 识 
实 词 和 虚词 按 一 定 的 语法 结构 组 合 而 成 。 计 算 机 正确 识别 虚词 ” 别 的 混合 策略 。 
对 文本 的 歧义 消解 和 句法 、 句 型 、 语 义 处 理 有 着 重要 的 意义 ， 、 
时 a 1 ”研究 现状 
虚词 中 的 la 格 助 词 “<X” 具 格 助词 “N”、 属 格 助词 “QR”、 终 结 
词 “ 芒 ”、 饰 集 词 “34S” 和 离合 词 “QR5” 与 其 前 一 音节 不 加 分 字 1999 年 学 者 们 开始 研究 藏 文 分 词 问题 以 来 ， 取 得 了 很 
分 隔 符 组 成 一 个 音节 ， 在 藏 语 自然 语言 处 理 中 称 这 些 虚 词 为 紧 多 有 价值 的 成 果 。 在 藏 文 分 词 方面 ， 陈 玉 忠 等 人 中 首次 提出 了 
缩 词 。 紧 缩 词 的 识别 既是 藏 文 分 词 的 一 项 基础 工作 ， 也 是 藏 文 种 基于 格 助词 和 接续 特征 (BCCF ) 的 书面 藏 文 自动 分 词 方案 ; 
分 词 的 难点 ， 为 此 学 者 们 围绕 紧缩 词 的 识别 展开 了 研究 。 紧 缩 。 这 一 方案 消除 了 切 分 上 收 义 和 未 登录 词 识 别 问 题 ， 提 高 了 藏 文 分 
词 中 属 格 助词 < 信 ”、 终结 词 “六 ” 饰 集 词 “QS” 和 离合 词 “Qal? 词 精度 ， 其 最 终 切 分 准确 率 达 97.21%。 才 智 杰 外 设计 开发 了 班 
的 识别 基本 得 到 解决 ， 由 于 la 格 助 词 “~” 和 具 格 助词 “3” 的 ” 智 达 藏 文 自动 分 词 系统 。 该 系统 采用 的 是 基于 词典 匹配 的 分 词 
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方法 ， 在 85 万 字 节 藏 语 语 料 的 切 分 准确 率 达 99%。 刘 汇 


人 的 采用 格 助词 分 块 并 识别 


AN 
二 


徊 界 词 ， 采 用 最 大 匹配 方法 分 词 ， 


系统 最 终 分 词 正 确 率 达 96.98%。 史 了 晓 东 等 人 加 将 基于 HMM 的 


汉语 分 词 系统 Segtag 移植 到 
分 词 系统 ， 其 准 


I 藏 文 分 词 中 , 设计 实现 了 央 金 藏 文 
确 率 达 91%。 康 才 歇 外 在 常用 的 四 词 位 标注 集 


扩充 为 六 词 位 标注 集 ， 采 | 
练 和 测试 , 准 
准确 率 达 94.34%。 李 亚 超 等 人 外 基 于 条 件 随机 场 模型 实 


行 训 
分 词 ， 


j 条 件 随 机 场 作为 标注 建 模 工 具 来 进 


E 确 率 达 95.89%。 龙 从 军 等 人 口 用 


现 了 基于 音节 标注 的 藏 文 分 词 系统 ， 疹 
条件 随机 场 和 规则 融合 方法 解决 藏 文 分 词 问题 ， 


登 等 人 回采) 


最 终 正确 率 为 96.11%。 李 
焙 特 征 


0.97% 


统计 法 [5 
规则 法 适合 于 封闭 语 料 
主要 存在 的 问题 是 无 法 识别 


法 通过 对 语 料 的 训练 ， 


EE] 


志 


E、 邻 


CRF 六 字 位 


绕 藏 文 紧缩 词 的 识别 
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合 语 料 中 切 分 错误 率 占 总 词 数 的 12.71%, 其 中 紧缩 词 的 切 分 错 
误 占 6.93%。 说 明 紧缩 词 的 识别 是 藏 文 分 词 的 难点 ， 


utr 


学 者 们 上 


原 法 ” 
确 率 达 99.83 


一 还 原 法 ”的 基础 上 禾 
有 4040 个 紧缩 词 的 文 


识别 方法 ， 


E 确 率 达 95.35%。 洛 桑 嘎 


[13 


超 等 人 0 从 无 标注 语 料 中 抽取 边界 


接 变 化 数 特征 、 无 监督 间隔 标注 等 无 监督 特征 ， 


藏 文 分 词 。 


藏 文 分 词 中 有 一 类 特殊 的 词 称 紧缩 词 ， 紧 缩 在 藏 文中 所 占 
的 比较 很 大 ， 因 此 藏 文 紧缩 词 的 识别 是 藏 文 分 词 必须 要 解决 的 


将 融合 到 基于 序列 标注 的 分 词 系统 中 ， 其 分 词 
。 由 以 上 文献 可 以 看 到 ， 藏 文 分 词 主 要 采 / 
和 规则 与 统计 相 结合 5 等 三 种 。 在 这 三 种 方法 中 ， 


的 切 分 ， 开 放 语 料 下; 


择 适 合 的 语言 模型 。 


F 值 提 高 了 
规则 法 上 和、 


任 确 率 有 所 


未 登录 词 和 命名 题 识别 问题 。 


降 ， 
统计 


自动 分 析 文 本 特征 ， 从 而 达到 文本 的 分 
司 问题 ， 能 够 弥补 规则 法 的 不 足 ， 但 统计 法 需要 大 规模 的 分 词 
语 料 做 支撑 ， 并 且 要 选 
词语 料 规模 较 小 ， 分 词语 料 
法 还 不 乐观 。 整 体 来 看 采 | 


于 现今 的 藏 文 分 


的 准确 率 也 较 低 ， 所 以 只 采用 统计 
多 种 分 词法 相 结 合 比较 合适 目前 的 


准确 率 达 98. 


但 在 一 定 程度 


了 次 分 析 了 紧缩 词 在 藏 语 分 词 中 的 地 位 ， 
的 方法 需要 词 库 支 持 ， 


这 个 问题 ， 提 出 了 


9196 。 


词 ”的 问题 。 


展开 了 研究 。 才 智 杰 00 系 统 地 阐述 了 紧缩 
词 在 藏 文 信息 处 理 中 的 核心 地 位 ， 提 出 了 紧缩 词 华 
在 85 万 字 节 的 语 料 中 测试 ， 紧 缩 词 
%， 取 得 了 较 好 的 效果 。 完 么 扎 西 等 人 023 在 “添加 
上 用 藏 文 文法 约束 规则 识别 紧缩 词 ， 在 含 


于 条 件 随 机 场 的 紧缩 词 识别 方法 ， 其 


有 然 此 方法 的 准 
上 克服 了 “还 原 法 ”中 不 能 识别 
华 却 才 让 等 人 0 在 基于 音节 特征 感知 机 ? 


“添加 一 还 


的 识别 准 


本 中 识别 准确 率 达 99.95%。 李 亚 超 等 人 
肯 出 文献 [11,12] 中 


无 法 识别 未 登录 词 后 的 紧缩 词 。 为 解决 


识别 
确 率 比 基 于 规则 的 准确 率 低 ， 
“未 登录 词 + 紧 缩 
| 练 模型 


的 藏 文 命名 实体 识别 方案 中 ， 重 点 研究 了 利 | 


音节 的 方法 ， 


基于 词 位 的 统计 分 书 
缩 词 ,准确 率 为 95.89%， 
果 的 影响 。 以 上 文献 采 ) 
识别 方法 ， 龙 从 军 等 人 号 采 /) 
紧缩 词 的 识别 问题 , 其 准 


j 藏 文 紧缩 词 识 别 


其 识别 ; 


确 率 达到 了 99.91%。 康 才 轴 等 人 03 采 用 


方法 识别 


切 分 现代 藏 语文 本 中 的 藏 文 紧 
其 最 大 特点 是 减少 了 未 登录 对 识别 效 
规则 法 和 统计 法 研究 了 藏 文 紧缩 词 的 


统计 和 规则 相 结合 的 方法 研究 ] 
E 确 率 达 98.01%。 从 以 上 研究 情况 来 看 ， 
规则 法 适合 于 封闭 语 料 下 紧缩 词 的 识别 ， 统 计 法 不 受 语 料 的 限 


制 ， 合 适 于 开放 语 料 中 紧缩 词 识 别 ， 规 则 法 和 统计 法 相 结 合 既 
不 全 依赖 词 库 ， 又 不 完全 受训 练 语 料 的 质量 的 影响 ， 


是 藏 文 紧 


缩 词 识别 比较 有 效 的 方法 。 紧 缩 词 识别 准确 率 对 比 见 表 1。 


问题 。 陈 玉 忠 等 人 品 在 藏 文 分 词 难点 分 析 中 指出 , 500 句 藏 文 综 
表 1 紧缩 词 识别 准确 率 对 比 
紧缩 格 识别 准确 率 % 接续 紧缩 词 识别 准确 率 % 平均 
方法 测试 语 料 
有 和 aa QK 准确 率 % 
添加 -还 原 法 中 小 学 教材 100 99.15 100 100 100 99.83 
规则 
文献 [12] 综合 1 99.95 
条 件 随机 场 *] 政论 98.48 98.88 100 100 98.71 98.91 
感知 机 中 综合 2 99.91 
CRF++05 93.20 
统计 
黏 写 分 词 一 体 化 切 分 品 94.80 94.30 53.33 77.32 82.81 
新 闻 
双 标 签 黏 写 切 分 上 95.20 92.81 53.33 84.04 83.64 
中 小 学 教材 
五 标签 寿 写 切 分 中 94.19 91.65 53.33 75.26 81.22 
规则 和 统计 相 结 合 趾 100 98.79 96.67 95.88 98.01 
全 ¢ Ns " 28 9 >, 
表 1 可 见 ， 紧 缩 词 “A'Aal'As' 扣 ”可 直接 用 规则 的 方法 2 ”紧缩 格 识别 
es , a 和 < 四 4 人 
识别 ， 其 准确 率 达 100%:， 紧缩 格 “x 气 ”用 规则 法 识别 率 相对 


较 低 ， 尤 其 多 种 类 型 的 语 料 中 其 识别 率 明 显 下 降 。 而 统计 法 能 


克服 “未 登录 记 
缩 格 的 最 高 ; 


还 不 能 满足 实际 需求 。 


+ 紧缩 词 ” 的 现象 ,在 各 种 统计 方法 中 ， 识 别 紧 
住 确 率 达 98.88%, 但 对 使 用 频率 极 高 的 紧缩 格 来 说 


2.1 


紧缩 格 的 特征 
为 了 便 了 


叙述 本 文 把 还 未 判定 是 否 为 紧缩 格 的 <xS%” 称 为 
拟 紧缩 格 ， 合 拟 紧缩 格 的 音节 称 为 拟 紧缩 音节 。 紧缩 格 “3” 
识别 的 难点 究 其 原因 有 以 下 几 点 : 


a) 紧缩 格 只 能 出 现在 后 加 字 位 


yu 
二 


出 现在 后 加 字 位 置 上 


录用 稿 


的 “<S ”为 拟 紧 缩 格 。 
b) 紧缩 格 与 后 加 字 兼 类 。 例如, 文本 号 ArasSsNx< 和 
sa 和 1 aA as SS aas'Ssl (从 西宁 步行 到 拉萨 , 在 西 


于 请 拉萨 人 )” 中 第 


个 拟 紧缩 音节 “JA” 后 的 “X” 是 后 加 字 ， 


第 二 个 拟 紧缩 音节 “Sx” 中 的 “x” 是 紧缩 格 ， 又 如 文本 “会 过 


EAA A 


Aa 加 BS| ( 源 自 唐古拉 山 


的 水 , 有 些 人 在 放风 笔 )” 中 第 一 个 拟 紧缩 音节 “NSN” 后 的 “” 


是 后 加 字 ， 第 二 个 


拟 紧缩 音节 “WSN” 后 的 “N” 是 紧缩 格 。 


c) 紧缩 格 不 外 
文 格 助词 不 能 重 秋 使用。 例如 
SSRAASEIs| ( 见 到 什么 都 想 已 


与 其 他 格 助词 重 爱 接续 。 吉 太 加 09 指 出 ， 茂 


x a ga Ra Ee a ana dx 
9 的 想法 )” 的 “全 <” 中 的 拟 


紧缩 格 “<” 不 是 紧缩 格 。 若 其 识别 为 紧缩 格 ,对 应 的 还 原 结果 
为 ““ 守 3…”, 这 就 使 名 中 出 现 了 两 个 格 助词 重任 接续 的 现象。 


d) 识别 时 需 考虑 上 下 文 语 境 ， 紧 缩 格 具有 动态 性 ， 


同一 个 


拟 紧 缩 格 在 不 同 的 语 境 中 有 不 同 的 识别 结果 。 例 如 ， 单 音节 
“S<” “< “5S “XN” 等 具有 实际 意义 ， 可 单独 成 词 ; 


但 在 
紧缩 格 时 需 


些 语句 中 这 些 音节 后 的 “<” “I” 是 紧缩 格 ， 因 此 识别 
4 体 分 析 上 下 文 的 语 境 。 例 如 ，“< 全 or 重 和 < 送 


和 Sa aarqsarmSs| (为 了 赢得 尊严 说 明 实况 )” 中 两 个 相 
同 的 拟 紧缩 格 音节 “ 久 <” 有 不 同 的 识别 结果 ， 其 第 一 个 “x” 


为 紧缩 格 ， 第 二 个 不 是 紧缩 格 。 


2.2 ”紧缩 格 识别 


2.2.1 紧缩 格 的 规则 及 添加 还 原 识别 算法 


本 文采 | 


模块 式 分 步 方案 识别 紧缩 格 ， 
法 识别 、 还 原 法 识别 、 最 大 焙 模 型 识别 和 文本 输出 五 个 模块 组 
成 。 读 取 文 本 后 ， 首 先 提取 拟 紧缩 音节 ， 对 其 | 
规则 不 能 识别 ， 则 } 


文本 读 取 、 规 则 


j 规 则 识别 。 若 
若 还 原 法 不 能 识别 ， 则 用 最 


还 原 法 识别 ; 


大 粹 模型 识别 。 其 识别 过 程 如 图 1 所 示 。 


文本 输出 


文本 读 取 后 先 定位 拟 紧缩 音节 的 位 置 i 


一 一 最 大 炳 模型 
识别 紧缩 格 


读 取 文 本 及 提取 拟 紧缩 音节 


规则 法 
识别 紧缩 格 


还 原 法 
识别 紧缩 格 


I 


图 1 紧缩 格 识 别 模型 


读 取 其 前 后 各 2 


个 音节 作为 待 处 理 的 五 元 处 理 对 象 ， 即 处 理 对 象 w=<wi2,wi 


四 太 


1,Wi, Witl,Wit2>。 习 ] 


拟 紧 缩 音节 wi 前 或 后 不 足 2 个 音节 时 ， 前 本 
的 不 足 位 补充 “start ”， 


后 面 的 不 足 位 补充 “end”。 选 择 五 元 处 


里 对 象 的 原因 是 : 


方面 控制 算法 时 间 复 杂 度 ， 另 一 方面 藏 文 
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拉 玛 孔 西 ， 等 ， 藏 文 紧缩 格 识 风 


1 4 音节 词 占 总 词 条 数 的 93.78%，4 音节 词 以 上 的 只 占 总 词 条 
数 的 6.22%07。 如 文本 “cori sag A Xap S| (我 帮 卓 
玛 写作 业 )” 中 ， 对 拟 紧 缩 音 节 “N” “KX”“AN” 和 “BN” 
等 提取 五 元 处 理 对 象 <start, start， cI>、 <ssl 过 ax<AsLS>、 
< 半 Uax,nisuS.O 人 > 和 < xs,SN%，end，end>。 拟 紧缩 音节 识 
别 算法 、 紧 缩 格 的 规则 识别 算法 及 添加 一 还 原 算 法 如 下 : 
算法 1 拟 紧缩 音节 识别 算法 
1: 输入 : 藏 文字 s 
1 或 6， 1 表示 s 是 拟 紧缩 音节 ，68 表示 s 是 非 紧缩 音节 
或 “<”) 
4: ”1if(Length(s)>=3 且 尾 字符 前 一 字符 为 “可 sqSa' 之 一 ) 
5: if(Length(s)=3 且 尾 字符 之 前 字符 为 “SSSSRSacqASaq 
之 一 ) // 除 去 了 再 后 加 字 为 5 的 情况 


6: return 1; 


2: 输出 : 


3: if(Length(s)>1 且 尾 字符 为 “3 


7: else return 9; 
8: else return 1; 

9: else 
算法 2 


1: 输入 : 


return ©; 
紧缩 格 的 规则 识别 算法 

W=<Wi-2;Wi-13Wis Wit1isWit2>;//W 为 拟 紧缩 格 的 五 元 处 理 对 象 
2: 输出 : 1 或 8 或 -1, 1 表示 拟 紧缩 格 音节 wi 为 紧缩 音节 ,8 表示 非 紧 
缩 音 节 ，-1 表示 无 法 判断 
3: if(wi 为 “中 和 DAR” 之 一 ) 


4: return 90; 

5: eLse if(wi 为 :saSSS< asx， 之 一 ) 

6: return 1; 

7: else if(wi-1= ‘W’ ) 

8: if( (wi-zt 为 “sse | 

a aann asx 之 一 ) 

9: return @; 

10: else return 1; 

11: else if(wi or Wi-itwi Or Wi-2+tWi-i+Wi OF WitWi+ 


or WitwiritWir2 EDB1) 

12: return ©Q@; 

13: else return =13 

“ARNAKASK” 等 4 个 字 出 现 的 频率 非常 高 ， 其 中 的 

“gS 或 二 ”在 任何 情况 下 都 为 紧缩 格 ， 因 而 用 规则 识别 较为 合 
适 ; 二 音节 词 中 第 一 个 音节 为 “各 ” 第 二 个 音节 的 最 后 一 个 字 
符 为 “或 <” 的 词 “mr 科 S| WR A 有 革 |Rasl 
ox SAss| rx|” 等 中 的 “1 或 <” 不 是 紧缩 格 ， 其 他 都 是 
紧缩 格 ， 这 种 情况 也 可 以 用 规则 法 识别 。DB1 存放 了 单 音 节 、 
双 音 节 和 三 音节 字 中 最 后 一 个 字符 在 任何 情况 下 都 为 后 加 字 的 
词 ， 这 类 词 共 有 1622 个 ， 如 “| | 后 SS A as 
| a Aq EI a dy ax 从 人 | Sex ”等 。 
例如 ， A OS SY SV 
q3STgSTSS| ( 扎 西 在 写作 业 的 同时 给 爸爸 打 电 话 问 家 里 情况 )”， 


201804.02056v1 


chinaXiv 


录用 稿 


通过 算法 1 提取 例句 中 的 拟 紧缩 音节 “9 、 和 、aq、 生 、 


记忆 


ND 


算法 2 可 识别 “98、aAS、s<、 


sx YN、 Sa”, 


、 SS” 中 的 “S 或 x” 为 后 加 字 , “x” 中 的 “<” 是 紧 


缩 格 ， 由 紧缩 格 的 特征 (3 ) 可 以 判断 “全 ”中 的 “< 是 后 加 
字 ， 规 则 法 无 法 判断 “8 ”中 的 “S ”是 否 为 紧缩 格 。 

算法 3 紧缩 格 的 “添加 -还 原 ” 算法 

1; 输入 ; w=<Wi-2,Wi-15WisWitisWit2>;//W 为 拟 紧缩 格 的 五 元 处 理 对 象 

2: 输出 : 1 或 -1，1 表示 拟 紧缩 音节 wi 为 紧缩 音节 ，-1 表示 无 法 判断 

3: w2= wm-“ 拟 紧缩 格 ”; 

4: Ww”?=Wi-1tWi-“ 拟 紧缩 格 ”; 

5: W”??=Wi-2+Wi-1+Wi- “ 拟 紧 缩 格 ; 

6: if(w’ 中 最 后 一 个 字符 或 者 倒数 第 二 个 字符 为 下 加 字 或 元 音 或 上 加 字 ) 

7: if(w’”? 或 者 w’’?EDB2) 

8: return 1; 

9: else return -1; 

10: else if(w”?+ “9” 或 者 w””?+ “9%” EDB2) 

11: return 1; 

12: else return -1; 

DB2 中 存放 了 二 音节 词 、 三 音节 词 且 最 后 一 个 音节 是 无 后 

加 字 或 后 加 字 为 “QA ”的 词 ， 主 要 用 于 利用 “添加 -还 原 ” 法 判 


断 紧缩 格 ， 如 “六 ua SaRa| aaa 


3 信 玫 ”等 词 。 


2.2.2 紧缩 格 的 最 硕 识别 的 方法 


Jaynes 于 1957 年 首次 提出 最 大 灶 原 理 之 后 , 被 广泛 应 用 于 


自然 语言 处 理 领 域 。 其 者 
关于 未 知 分 布 最 合理 的 ] 


本 原理 为 :在 已 知 部 分 信息 的 前 提 下 ， 


1 


P (yD) =- UD oo| Zr 
其 中 : ZGC9 是 归 一 化 常数 ， 并 有 
-Zee| Zajte 


式 (3) (4) 中 的 入 为 模型 参数 ， 即 特征 对 应 的 权重 4， 
通过 IIS 算法 "来 估计 。 
藏 文 紧缩 格 的 识别 需要 把 原始 文本 内 容 进行 序列 标注 ， 
由 SN ANT saraSSSI( 因 这 里 没 


: AS 因 


| 


G3) 


如 


桥 )” 的 文本 语 料 , 经 过 标 


~ 


注 后 的 训练 语 料 为 “q5STFAS< TSSNSNaSNSSTT”。 其 中 


T 表示 紧缩 格 ，F 表示 后 加 字 ，N 表示 不 是 拟 紧 缩 格 。 首 先 将 
{T, F, N} 作 为 标签 集 , 每 个 音节 及 其 上 下 文 信息 作为 输入 值 ; 


然后 使 ) 

型 返回 的 每 个 标签 的 最 大 输出 概率 。 

最 大 炳 模型 中 针对 研究 对 象 选择 有 效 的 上 

关键 问题 ， 根 据 藏 文 词 语音 节 的 分 布 特点 及 上 

定 了 模型 ， 并 抽取 特征 模板 。 本 文选 取 的 特征 模板 见 表 2。 
表 2 特征 模板 


最 大 似 然 估 计 统 计 语 料 中 每 个 特征 概率 ， 最 后 选取 模 


F 文 特征 是 一 个 


下 文 激 发 环境 确 


序号 原子 模板 模板 意义 

1 NJ 当前 字 ( 拟 紧缩 格 ) 

LNJ 拟 紧 缩 格 和 其 前 一 音节 

3 RNJ 拟 紧 缩 格 和 其 后 一 音节 

4 NIL 拟 紧 缩 格 和 其 后 两 个 音节 
5 NJR 拟 紧 缩 格 和 其 前 两 个 音节 
6 NJRR 去 掉 紧 缩 格 的 字 串 和 其 前 一 音节 


训练 语 料 的 每 个 音节 都 采用 以 上 特征 模板 ， 拟 紧缩 格 前 的 


[9 en 


音节 不 足 时 , 用 “start” 补 充 , 拟 紧 缩 格 后 音节 不 足 时 , 用 


言 
断 应 该 是 符合 已 知 信息 最 不 确定 或 最 


补充 ， 统 计 模 型 采用 最 大 灶 模型 开源 程序 包 。 


大 随机 的 推断 5。 藏 文 紧缩 格 识别 可 看 做 是 一 个 序列 标注 问题 ， 


一 


XY 一 {0,1}， 其 定义 如 下 : 


标注 


E 时 对 每 个 对 象 随机 标注 一 个 标签 ， 并 建立 已 知 特征 x 的 条 
件 下 输出 标签 y 的 概率 分 布 模型 ppEP)。 其 中 x 属于 上 下 文 
信息 集 X(xEX)， 而 y 属于 对 应 的 标签 集 Y(yeY)。 从 训练 集 
中 可 获得 N 个 样本 集 ， 
这 些 样本 可 以 定义 一 个 事件 空间 ， 


即 S={Gxlyl1),(x2,y2) (xnyn)}， 根据 
其 特征 是 一 个 二 值 函数 下 


则 模型 p 的 和 为 : 
H(p) -2p(xy)iog( P(x)) (1) 
从 式 (1) 中 可 得 出 最 大 炉 模型 为 
P' =argmax H(7) O) 


式 (2) 中 的 C 为 符合 约束 条 件 的 模型 集合 , 然后 计算 满足 C 


条 件 的 最 大 p*: 


3 ”实验 数据 


d” 


本 文 在 青海 师范 大 学 建立 的 语 料 中 选取 了 含 66 184 个 字 的 
语 料 作为 测试 语 料 〈 其 中 拟 紧 缩 格 有 9387 个 )， 对 已 有 紧缩 格 


识别 方法 和 本 文 提 出 的 紧缩 格 识别 方法 
语 料 的 准确 性 ， 全 部 经 过 人 工 反复 校对 。 
教材 、 历 史 、 
封闭 测试 两 种 。 封 闭 测 试 时 ，/) 


全 语 料 进行 训练 ， 然 后 随 忆 


进行 了 测试 。 为 了 确保 
语 料 领域 包括 政治 、 
小 说 、 新 闻 五 种 题材 ， 测 试 方式 包括 开放 测试 和 


儿 选 


取 30% 做 测试 语 料 ; 开放 测试 时 , 其 中 的 80% 做 训练 语 料 , 20% 


做 测试 语 料 。 实 验 结果 见 表 3。 其 中 ， 方法 A 指 文献 [4] 采 月 
规则 、 
法 ， 方 法 C 是 文献 [13] 采 


提出 的 紧缩 格 的 规则 识别 方法 “添加 一 还 原 ” 
识别 的 方法 “规则 + 还 原 法 + 最 大 烂 ” 法 《简称 为 混合 法 )。 
由 表 3 可 见 ， 紧 缩 格 的 识别 仅 


的 


统计 相 结 合 的 方法 , 方法 B 是 文献 [11] 提出 的 添加 还 原 
的 条 件 随机 场 技 术 ， 方法 D 是 文 
献 [1 和 采用 的 感知 机 技术 ; 方法 E1、E2、E3、E4 分 别 表示 本 文 
算法 、 最 大 炉 


规则 法 或 统计 法 其 效果 不 


佳 ， 规 则 和 统计 相 结合 的 方法 识别 紧缩 格 的 ; 


住 确 率 较 高 o 本 文 
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结合 规则 、 添 加 还 原 法 和 最 大 


炉 三 种 方法 计 


只 别 藏 文 紧缩 格 ， 在 


封闭 语 料 上 的 测试 准确 率 、 召 回 率 和 Fl 值 分 别 达 99.81%、99.19% 


和 99.50， 在 开放 语 料 上 的 测试 准确 率 、 召 回 率 和 Fl 值 分 别 达 


99.26%、96.47% 和 97.85, 比 现 


表 3 紧缩 格 识别 实验 数据 


最 高 的 准确 率 有 了 较 明显 的 提 


方法 ”测试 准确 率 /% 召回 率 /% Fl 值 /% 

A 放 98.19 91.50 94.73 

B 放 95.51 78.96 86.44 

放 95.92 78.95 86.61 

D 放 94.11 66.60 78.00 

El 放 85.29 85.29 85.29 

E2 放 42.70 23.03 29.92 

E3 放 95.74 81.28 87.92 

封闭 99.81 99.19 99.50 

四 放 99.26 96.47 97.85 
在 方法 E4 中 主要 出 现 了 两 类 错误 ， 一 类 是 拟 紧 缩 格 后 的 
格 助词 没 能 正确 识别 ， 例 如 ， “全 a msSqSS AR 5 EE SS 
5 ASA|(〈 木 后 更 嘎 乘 飞 烟 在 空中 邀 游 )” 中 ,由 于 把 兼 类 
格 助词 “S ”识别 成 了 格 助词 , 从 而 没 能 识别 拟 紧 缩 音节 “sqS” 


中 的 紧缩 格 ， 这 类 错误 可 以 通 
一 类 是 训练 语 料 没 能 覆盖 ， 这 
式 弥 补 。 


4 ”结束语 


藏 文 紧缩 格 的 识别 是 藏 文 


过 提高 格 助词 识别 得 以 解决 ， 另 


类 错误 可 通过 增 大 训练 语 料 的 方 


分 词 中 最 难 最 


== 


法 和 最 大 粹 模型 的 特征 模板 ， 
了 识别 。 实 验 数据 表明 ， 该 方 


Fi 


于 


本 文通 过 剖析 己 有 藏 文 紧缩 词 识 
正 ， 针 对 性 地 设计 了 识别 藏 文 紧缩 格 规则 算法 


别 方法 ， 分 析 


重 


要 的 技术 之 一 。 
藏 文 紧缩 格 的 特 


、 添 加 一 还 原 算 


结合 三 种 算法 对 藏 文 紧缩 格 进行 


法 识别 藏 文 紧 缩 格 的 ; 
率 和 Fl 值 分 别 达 99.26%、96.47%、97.85%， 比 现 有 最 高 也 


ht 


对 确 率 有 了 较 明 显 的 提高 。 今 后 在 此 基础 上 而 
使 藏 文 分词 尽 早 满足 实际 需求 。 
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